Les agents IA doivent être capables de coopérer, de se coordonner et d'agir dans des contextes étendus et sur de longues périodes, ce qui, selon Nvidia, nécessite un nouveau type d'infrastructure et en particulier ouverte. Le fournisseur affirme avoir trouvé la solution avec sa gamme de modèles ouverts Nemotron 3. Les développeurs et les ingénieurs peuvent utiliser ces modèles pour créer des agents ou des applications IA spécifiques à un domaine sans avoir à construire un modèle de base à partir de zéro. Nvidia publie également la plupart de ses données d'entraînement et ses bibliothèques d'apprentissage par renforcement (RL pour reinforcement learning) à l'intention de toute personne souhaitant créer des agents IA. « C'est la réponse de Nvidia à DeepSeek, qui perturbe le marché de l'IA », a déclaré Wyatt Mayham de Northwest AI Consulting. « Ils proposent une alternative ouverte « prête à l'emploi » avec un support entreprise et une optimisation matérielle. »
Une architecture de LLM optimisée
Nemotron 3 dispose de ce que Nvidia appelle une « hybrid latent mixture-of-experts (MoE) ». Chez le fournisseur de Santa Clara, cette expression désigne une façon d’architecturer un grand modèle où plusieurs idées sont combinées pour gagner à la fois en capacité, en vitesse et en efficacité de calcul. Dans un Mixture-of-Experts classique, le modèle est composé de plusieurs sous-réseaux appelés « experts », et un routeur (gating network) choisit pour chaque token seulement quelques experts à activer. Cela augmente fortement le nombre total de paramètres tout en ne calculant qu’une petite partie du réseau à chaque étape, ce qui réduit le coût d’inférence. Dans Nemotron 3, le fournisseur parle de modèle hybride car la colonne vertébrale combine plusieurs types de blocs :
- les couches Mamba (state-space) offrent une modélisation séquentielle efficace pour gérer des séquences très longues,
- les couches Transformer fournissent un raisonnement précis pour améliorer le raisonnement,
- le routage MoE apporte plus d'efficacité pour le calcul à grande échelle.
L’architecture alterne ces composants (Mamba + MoE + un peu d’auto-attention) pour maximiser le débit (tokens/s) tout en conservant une bonne précision sur des contextes pouvant atteindre 1 million de tokens.
Le modèle Nemotron 3 est disponible en trois tailles
Nano : le plus petit et le plus « rentable en termes de calcul », destiné à des tâches ciblées et hautement efficaces telles que la recherche rapide d'informations, le débogage de logiciels, la synthèse de contenu et les flux de travail des assistants IA. Le modèle à 30 milliards de paramètres active 3 milliards de paramètres à la fois pour plus de rapidité et dispose d'une fenêtre contextuelle d'un million de tokens, ce qui lui permet de mémoriser et de relier des informations sur des tâches en plusieurs étapes.
Super : un modèle de raisonnement avancé et très précis avec environ 100 milliards de paramètres, dont jusqu'à 10 milliards sont actifs par token. Il est destiné aux applications qui nécessitent la collaboration de nombreux agents pour traiter des tâches complexes, telles que la recherche approfondie et la planification stratégique, avec une faible latence.
Ultra : un moteur de raisonnement de grande envergure destiné aux applications IA complexes. Il compte 500 milliards de paramètres, dont jusqu'à 50 milliards actifs par jeton.
Nemotron 3 Nano est désormais disponible sur Hugging Face et via d'autres fournisseurs de services d'inférence et plateformes d'infrastructure de données et IA d'entreprise. Il sera bientôt disponible sur AWS via Bedrock et sera pris en charge sur Google Cloud, CoreWeave, Microsoft Foundry et d'autres infrastructures publiques. Il est également proposé sous forme de microservice Nvidia NIM pré-intégré. Nemotron 3 Super et Ultra devraient être disponibles au cours du premier semestre 2026.
Une architecture hybride pour des performances accrues
Les experts soulignent que le positionnement stratégique est ici fondamentalement différent de celui des fournisseurs d'API. « Nvidia ne cherche pas à concurrencer les services hébergés d'OpenAI ou d'Anthropic. Elle se positionne comme la couche d'infrastructure pour les entreprises qui souhaitent créer et posséder leurs propres agents IA », explique M. Mayham. Ce que propose également OpenAI ou Anhropic toutefois. Brian Jackson, directeur de recherche principal chez Info-Tech Research Group, convient que les modèles Nemotron ne sont pas conçus comme des produits prêts à l'emploi. « Ils s'apparentent davantage à un kit repas avec lequel un développeur peut commencer à travailler, explique-t-il, et apporter les modifications souhaitées en cours de route pour obtenir exactement le résultat qu'il souhaite. »
Jusqu'à présent, Nemotron 3 semble afficher des gains impressionnants en termes d'efficacité et de performances. Selon la société de benchmarking indépendante Artificial Analysis, Nano est le plus efficace parmi les modèles de sa taille et le plus précis. Selon Nvidia, l'architecture hybride Mamba-Transformer MoE de Nano, qui intègre trois architectures dans une seule infrastructure, contribue à cette efficacité. Pour rappel, les couches Mamba offrent une modélisation séquentielle efficace, les couches Transformer fournissent un raisonnement précis et le routage MoE offre une efficacité de calcul évolutive. L'entreprise affirme que cette conception offre un débit de jetons quatre fois supérieur à celui de Nemotron 2 Nano, tout en réduisant la génération de jetons de raisonnement jusqu'à 60 %. « Le débit est la mesure critique pour l'IA agentique », a déclaré M. Mayham. « Lorsque vous orchestrez des dizaines d'agents simultanés, les coûts d'inférence augmentent considérablement. Un débit plus élevé signifie un coût par jeton plus faible et un comportement des agents en temps réel plus réactif. » La réduction de 60 % de la génération de jetons de raisonnement résout le « problème de verbosité », où les modèles de chaîne de pensée (CoT) génèrent un raisonnement interne excessif avant de produire un résultat utile, a-t-il noté. « Pour les développeurs qui créent des systèmes multi-agents, cela se traduit directement par une latence plus faible et des coûts de calcul réduits. »
La différence réside dans l'ouverture
Selon Nvidia, le prochain Nemotron 3 Super excelle dans les applications qui nécessitent la collaboration de nombreux agents pour accomplir des tâches complexes avec une faible latence, tandis que Nemotron 3 Ultra servira de moteur de raisonnement avancé pour les flux de travail d'IA qui exigent des recherches approfondies et une planification stratégique. M. Mayham a expliqué que ces modèles, qui ne sont pas encore commercialisés, intègrent la technologie MoE latente, qui projette les jetons dans une dimension latente plus petite avant le routage expert, ce qui permet « en théorie » d'avoir 4 fois plus d'experts pour le même coût d'inférence, car cela réduit la charge de communication entre les GPU. L'architecture hybride derrière Nemotron 3, qui combine des couches Mamba-2, des transformateurs clairsemés et le routage MoE, est « véritablement novatrice dans sa combinaison », a déclaré M. Mayham, bien que chaque technique existe individuellement ailleurs. En fin de compte, le tarif de Nemotron est « attractif », a-t-il déclaré ; les modèles ouverts peuvent être téléchargés et exécutés localement gratuitement. Le prix des API tierces sur DeepInfra commence à 0,06 $/million de jetons d'entrée pour Nemotron 3 Nano, ce qui est « nettement moins cher » que GPT-4o, a-t-il noté.
Pour souligner son engagement en faveur de l'open source, Nvidia révèle certains des rouages internes de Nemotron 3, en publiant un ensemble de données avec des télémétries réelles pour les évaluations de sécurité, ainsi que 3 000 milliards de jetons provenant des ensembles de données de pré-entraînement, de post-entraînement et de RL de Nemotron 3. En outre, Nvidia met en open source ses bibliothèques NeMo Gym et NeMo RL, qui fournissent les environnements d'entraînement et la base post-entraînement de Nemotron 3, ainsi que NeMo Evaluator, afin d'aider les développeurs à valider la sécurité et les performances des modèles. Tous ces éléments sont désormais disponibles sur GitHub et Hugging Face. Parmi ceux-ci, M. Mayham a souligné que NeMo Gym pourrait être l'élément le plus « stratégiquement important » de cette version.
Taillé pour les entreprises
Le pré-entraînement apprend aux modèles à prédire des jetons, et non à accomplir des tâches spécifiques à un domaine, et le RL traditionnel basé sur le feedback humain (RLHF) n'est pas adapté aux comportements complexes des agents, explique encore M. Mayham. NeMo Gym propose un RL avec des récompenses vérifiables, c'est-à-dire une vérification informatique de l'achèvement des tâches plutôt que des évaluations humaines subjectives. Autrement dit, le code a-t-il passé les tests ? Les calculs sont-ils corrects ? Les outils ont-ils été appelés correctement ? Cela donne aux développeurs qui créent des agents spécifiques à un domaine l'infrastructure nécessaire pour former des modèles sur leurs propres flux de travail sans avoir à comprendre l'ensemble du cycle de formation RL. « L'idée est que NeMo Gym accélérera la configuration et l'exécution des tâches RL pour les modèles », explique Jason Andersen, vice-président et analyste principal chez Moor Insights & Strategy. « La distinction importante est que NeMo Gym dissocie l'environnement RL de la formation elle-même, ce qui permet de configurer et de créer facilement plusieurs instances de formation (ou « gyms »). » M. Mayham a qualifié cette « ouverture sans précédent » de véritable facteur de différenciation de la version Nemotron 3. « Aucun concurrent majeur n'offre ce niveau de complétude », a-t-il déclaré. « Pour les entreprises, cela signifie un contrôle total sur la personnalisation, le déploiement sur site et l'optimisation des coûts, ce que les fournisseurs fermés ne peuvent tout simplement pas égaler. »
Mais il y a un compromis en termes de capacités, a souligné M. Mayham : Claude et GPT-4o restent plus performants que Nemotron 3 sur des tâches spécialisées telles que les benchmarks de codage. Cependant, Nemotron 3 semble cibler un autre type d'acheteurs : les entreprises qui ont besoin de flexibilité de déploiement et ne veulent pas être liées à un fournisseur. « La proposition de valeur pour les entreprises n'est pas la capacité brute, mais la combinaison de poids ouverts, de données d'entraînement, de flexibilité de déploiement et d'intégration à l'écosystème Nvidia que les fournisseurs fermés ne peuvent égaler », a-t-il déclaré.

Commentaire